Сравнение фрагмента полного множественного выравнивания, полученного с помощью программы ClustalW, с соответствующим фрагментом "эталонного" выравнивания из SMART

На главную страницу семестра

База данных SMART содержит проверенные экспертами множественные выравнивания гомологичных белковых доменов. Выравнивания согласованы с данными о пространственной структуре (если она известна). Эти выравнивания часто используют как эталонные (benchmark alignment) при оценке качества работы новых программ выравнивания.

Последовательность действий:
  1. Мы получили множественное выравнивание домена EXOIII из разных организмов (пользуясь программой SMART) Скопировали данные в файл EXOIII.msf. Таким образом мы получили эталонное выравнивание доменов, гомологичных выбранному.

  2. Затем мы вырезали с помощью GENEDOC фрагмент для дальнейшего исследования, состоящий из выравнивания 5 белков (с ID YG5S_YEAST,RNT_ECOLI,DPO3_BACSU,DPO3E_TREPA,DPO3E_RHOCA) и длинной 80 аминокислот. Один из белков (с идентификатором YG5S_YEAST ) заведомо имел не очень хорошее выравнивание по сравнению с остальными (7 колонок из 80 совпадали).Сохранили фрагмент выравнивания в файле benchmark.msf.

  3. Далее мы провели собственное множественное выравнивание по этим же белкам при помощи программы ClustalW (для этого пришлось воспользоваться программой emma пакета EMBOSS - одна из реализаций ClustalW), предварительно необходимо было получить полные последовательности данных белков в формате FASTA, но на этом этапе возникли некоторые трудности, связанные с тем, что в SMARTе были даны устаревшие ID белков, поэтому пришлось пользоваться фрагментами последовательности для того, чтобы в программе BLAST найти новый идентификатор последовательности. Импортировали выравнивание в GeneDoc и сохраните в виде файла clustalw.msf.

  4. Для того, чтобы теперь провести сравнение, мы провели некоторую визуализацию результатов. Для этого сначала мы нашли исследуемые участки, а затем окрасили в зеленый цвет. После выполнения этого оказалось, что одна последовательность вообще вылетела из выравнивания (та самая, которая изначально предполагалась как плохая по сравнению с другими, последовательность белка с идентификатором YG5S_YEAST). Мы не будем приводить остальных частей полного выравнивания, так как мы занимаемся собствнно сравнением двух участков.


Далее представляем вам посмотреть на результаты выравниваний:

I. Участок выравнивания полной последовательности, содержащий исследуемые участки последовательности.

                                                                                                                                                                                                       
                                  *     4 1 0         *     4 2 0         *     4 3 0         *     4 4 0         *     4 5 0         *     4 6 0         *     4 7 0         *     4 8 0              
D P O 3 _ B A C S U   :   N D V N E I K A K T R E D S A P E G E K R V E L H L H S P M S Q M D A V T G I G K L V E Q A K K W G H E A I A L T D H A V V Q S F P D A Y S A A K K H G I K M I   :     3 9 3
D P O 3 E _ T R E P   :   - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :         -
R N T _ E C O L I     :   - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - M S D N   :         4
D P O 3 E _ R H O C   :   G A G A L I A L E W R G A A V A I A D L E L W L S E P L D V G Q A E V T G R R V L S V H A T D L W P E R L H E G R H R L C L P L R E A R R I G P D P H P V P R P   :     4 8 0
Y G 5 S _ Y E A S T   :   S E Q G L V L T R I S L V N F D N E V I Y E E L V K P D V P I V D Y L T R Y S G I T E E K L T V G A K K T L R E V Q K D L L K I I S R S D I L I G H S L Q N D L   :     3 1 4
                                                                                                                                                                                                       
                                                                                                                                                                                                       
                                  *     4 9 0         *     5 0 0         *     5 1 0         *     5 2 0         *     5 3 0         *     5 4 0         *     5 5 0         *     5 6 0              
D P O 3 _ B A C S U   :   Y G - - M E A N L V D D G V P I A Y N A A H R L L E E E T Y V V F D V E T T G L S A V Y - D T I I E L A A V K V K - - G G E I I D K F E A F A N P H R P L S A T   :     4 6 8
D P O 3 E _ T R E P   :   - - - - - - - - - - - - - - - M I Y D W V F A V H E H V A F T A F D T E T T G L K A E E - D R I I E I G A V T F D - - R K G I I A R F S T L I F P D R A I P P D   :       6 2
R N T _ E C O L I     :   A Q L T G L C D R F R G F Y P V V I D V E T A G F N A K T D A L L E I A A I T L K M D E Q G W L M P D T T L H F H - V E P F V G A N L Q P E A L A F N G I D P N   :       8 3
D P O 3 E _ R H O C   :   V P R Q V V Y D F D L L G R G G E S A L A E T P L D K L T F V V F D T E T T G L F P T G G D E I V Q I A A V R I V N G R R V A G E V F D T L V N P G R P I P A A   :     5 6 0
Y G 5 S _ Y E A S T   :   K V M K L K H P L V V D T A I I Y H H K A G D P F K P S L K Y L S E T F L N K S I Q N G E H D S V E D A R A C L E L T K L K I L N G L A F G I G I N T E N L F T   :     3 9 4
                                                                                                        l                 6                                                                            
                                                                                                                                                                                                       
                                  *     5 7 0         *     5 8 0         *     5 9 0         *     6 0 0         *     6 1 0         *     6 2 0         *     6 3 0         *     6 4 0              
D P O 3 _ B A C S U   :   I I E L T G I T D D M L Q D A P D V V D V I R D F R E W I G D D I L V A H N A S F D M G F L N V A Y K K L L E V E K A K N P V I D T L E L G R F L Y P E F K N H   :     5 4 8
D P O 3 E _ T R E P   :   V S K I N H I T D D M L V N K P R F C E I V S D F S R F I K G T V L V A H N A N F D V E F L N A E - L S L C K K Q P L S H K V V D T Y A M A Q A V F P G L G R H   :     1 4 1
R N T _ E C O L I     :   D P D R G A V S E Y E A L H E I F K V V R K G I K A S G C N R A I M V A H N A N F D H S F M M A A A E R A S L K R - N P F H P F A T F D T A A L A G L A L G Q T   :     1 6 2
D P O 3 E _ R H O C   :   S T A V H G I T E A M V A T A P A I A E V G R R F H K F A E G A V L V A H N A P F D L E F L R R K - E L L I G K N - F D N P V L D T V L L S A V V F G A A E G H   :     6 3 8
Y G 5 S _ Y E A S T   :   K L H R F E V K T V L L N D M I I K N H T E D D S K G Q L I R C V E D D E T W T H I H E N L N K D V K L I V G R I K N L E R S R N Y N K K P R K E T P S F D A S   :     4 7 4
                                      6                                                   6   v a h n a   f d     f 6                                       t                                          

Примечание:
Зеленым цветом (и желтым) отмечены участки аминокислотных последовательностей, соответствующие участкам из SMARTа. Ярко зеленым отмечены совпадения четырех аминокислот (такая лишь одна) и трех аминокислот (все остальные). Желтым отмечено совпадение двух аминокислот (иногда в столбике попадалось две пары таких аминокислот, в результате чего четыре из аминокислот оказывались окрашены в желтый цвет). Надо добавить, что если аминокислоты не входили в участки, взятые из SMARTа, то цветом они не выделялись, даже если и было совпадение.

II. Выравнивание последовательности взятая из SMARTа.

                                                                                                                                                                                                   
                                  *       1 0         *       2 0         *       3 0         *       4 0         *       5 0         *       6 0         *       7 0         *       8 0          
D P O 3 _ B A C S U   :   T Y V V F D V E T T G - L S A V Y D T I I E L A A V K V K G G E - - - - - I I D K F E A F A N P - - H R P L S A T I I E L T G I T D D M L Q D - - A P D V V D V   :   7 0
D P 3 E _ T R E P A   :   A F T A F D T E T T G - L K A E E D R I I E I G A V T F D R K G - - - - - I I A R F S T L I F P - - D R A I P P D V S K I N H I T D D M L V N - - K P R F C E I   :   7 0
R N T _ E C O L I /   :   Y P V V I D V E T A G - F N A K T D A L L E I A A I T L K M D E Q G W L M P D T T L H F H V E P F V G A N L Q P E A L A F N G I D P N D P D R G A V S E Y E A L   :   7 9
D P 3 A _ R H O C A   :   T F V V F D T E T T G L F P T G G D E I V Q I A A V R I V N G R - - - R V A G E V F D T L V N P - - G R P I P A A S T A V H G I T E A M V A T - - A P A I A E V   :   7 3
Y G 5 S _ Y E A S T   :   H I F A L D C E M C L - S E Q G - L V L T R I S L V N F D N - - - - - - - - E V I Y E E L V K P - - D V P I V D Y L T R Y S G I T E E K L T V G A K K T L R E V   :   6 8
                                    D   E t   g             d   6     6   a 6                                           P           6                 g I t                             6          

Примечание:
В данном выравнивании черным отмечено полное совпадение всех аминокислот в столбике и различными оттенкаим серого совпадение четырех и трех аминокислот из пяти.

Результаты сравнения:

Мы видим, что в нашем первом выравнивание одна из последовательностей вылетела из общего выравнивания вообще, поэтому понятно, что для нее, в таком случае, значение совпадения будет равно нулю, поэтому берем выравнивание лишь четырех последовательностей. Три последовательности совпадают практически полностью (верхние две и четвертая), а третья последовательность несколько смещена влево, при этом смещена таким образом, что ни один из столбцов не совпадает с выравниванев из SMARTа, то есть и в данном случае число совпадающих колонок снова равно нулю.Таким образом считаем по трем строкам (1,2,4).
  1. Число колонок во фрагменте из SMARTа равно 80.
  2. Число колонок ( считаем лишь по трем строкам - первой, второй и четвертой), совпавших с колонкаим в файле clustalw.msf равно 62. Число совпадений по четырем, проблемой здесь было выбрать участки последовательностей, по которым необходимо было вести счет. а соответственно и по пяти строкам, равно нулю.
  3. Величина сходства равна 0.775.

Выводы:

В данном случай, сравнивая выравнивани в Clustalw, и проверенные результаты выравнивания из базы данных SMART, мы видим, что существуют значительные различия в двух из пяти белков. Один из белк заведомо имел небольшой процент сходства, не удивительно, что в довольно длинных последовательностях нашлись участки, с которыми этот белок смог выравняться несколько лучше ( но все равно не очень хорошо ). Один белок (4 сторка) почему-то вдруг совсем немного сместился в выравнивании, но если посмотреть на далее лежащие участки выравнивния, то он затем частично совпадает с остальными (1,2,4) белкаим (нужно обратить внимание на большой участок совпадения VAHNA в обоих этих выравниваниях). Но самое важное, что можно, на мой взгляд, здесь можно обнаружить - это то, что совпали практически полностью белки, которые в названии имели буквы DPO3, которые показывают принадлежность данных белков к группе ДНК-полимераз III и отражают их близость, что подтверждается близостью состава.

Дополнительнок задание

В этом задании необходимо было получить матрицы попарного совпадения последовтельностей. Главной проблемой здесь является выбор участков выравниваний, мы решили, что в выравнивании из SMART можно взять все выравнивание, тем более, что оно было доволльно однородным на всем своем протяжении (при проверке результатов только исследуемого участка мы получили приблизительно такие же результаты), а в выравнивнии из CLUSTALW выбрали такой участок: вырезали первую часть до появления выделенного участка (отмечен зеленым), а также вырезали последний отрезок, где была только одна последовательность (DRO3_BACSU), и соответственно никакого выравнивания не было. Далее при помощи программы GENDOC посчитали попарное совпадение.
Результаты приведены ниже:
  1. Выравнивание, полученное в CLUSTALW.
     
                   DPO3_BACSU  DPO3E_TREPA    RNT_ECOLI  DPO3E_RHOCA   YG5S_YEAST 
    
      DPO3_BACSU          100%                                                    
    
     DPO3E_TREPA           17%         100%                                       
    
       RNT_ECOLI            6%          13%         100%                          
    
     DPO3E_RHOCA           20%          17%          10%         100%             
    
      YG5S_YEAST            8%           4%           4%           6%         100%
    
  2. Выравнивание из SMART.
                       DPO3_BACSU/1-1  DPO3E_TREPA/1-1   RNT_ECOLI/1-19  DPO3E_RHOCA/1-1   YG5S_YEAST/1-1 
    
      DPO3_BACSU/1-1              100%                                                                    
    
     DPO3E_TREPA/1-1               32%             100%                                                   
    
      RNT_ECOLI/1-19               22%              21%             100%                                  
    
     DPO3E_RHOCA/1-1               33%              32%              23%             100%                 
    
      YG5S_YEAST/1-1               14%              19%              11%              19%             100%
    
    
    

Вывод:

Выравнивание из SMART дает гораздо более значительные проценты попарного совпадения, что говорит в пользу таких биохимически проверенных данных выравнивний. Выравнивание же для CLUSTALW даже попарно не очень хорошее. Как мы видим, результаты довольно сильно различаются, особенно велика разница в процентном отношении для белков RNT_ECOLI/1-19 и YG5S_YEAST/1-1, тех самых, которые вышли из выбранного участка (см. выше).
То есть, судя по результатам данных выравниваний, мы можем сказать, что в SMART содержатся действительно проверенные данные, которыми следует пользоваться для построения множественных выравниваний (тем более здесь мы исследуем домены белков, которые и выполняют определенную биохимическую функцию),и эти данные действительно отражают степень родства белков. Программа CLUSTALW также может использоваться для построения множественных выравниваний, но данные ее не всегда могут соответствовать действительности, эта программа может быть помощником для построения "эталонных" выравниваний (то есть, мы сначала проводим исследование результатов Clustalw, а затем пользуясь ими стрроим выравнивание, которое на наш взгляд более соответствует действительности).


©Метелев Михаил